实际结果表明,使用较小的恒定学习速率,接近一个的超参数的深度学习优化者,大批量大小可以找到最小化损失功能的深神经网络的模型参数。我们首先显示了理论上的证据,即动量方法(动量)和自适应力矩估计(ADAM)的表现很好,即理论表现度量的上限很小,恒定学习率很小,超级参数接近一个,并且是一个大的。批量大小。接下来,我们证明存在一个批处理大小,称为关键批次尺寸最小化随机的甲骨文(SFO)复杂性,这是随机梯度计算成本,一旦批次大小超过关键批次大小,SFO的复杂性就会增加。最后,我们提供了支持我们理论结果的数值结果。也就是说,数值结果表明,ADAM使用较小的恒定学习率,接近一个的超参数和最小化SFO复杂性的临界批次大小比动量和随机梯度下降(SGD)更快。
translated by 谷歌翻译
自适应方法(例如自适应力矩估计(ADAM)及其变体)的收敛性和收敛速率分析已被广泛研究以进行非convex优化。分析基于假设,即预期或经验的平均损失函数是Lipschitz平滑的(即其梯度是Lipschitz的连续),并且学习率取决于Lipschitz连续梯度的Lipschitz常数。同时,对亚当及其变体的数值评估已经澄清说,使用较小的恒定学习速率而不依赖Lipschitz常数和超级参数($ \ beta_1 $和$ \ beta_2 $)接近一个是有利的,这对于训练深神经网络是有利的。由于计算Lipschitz常数为NP-HARD,因此Lipschitz的平滑度条件是不现实的。本文提供了亚当的理论分析,而没有假设Lipschitz的平滑度条件,以弥合理论和实践之间的差距。主要的贡献是显示理论证据表明,亚当使用较小的学习率和接近一个的超级参数表现良好,而先前的理论结果全部用于接近零的超参数。我们的分析还导致发现亚当在大批量尺寸方面表现良好。此外,我们表明,当亚当使用学习率降低和接近一个的超级参数时,它的表现良好。
translated by 谷歌翻译
数值评估明确表明,对于深度学习优化器,如随机梯度下降,动量和自适应方法,培训深度神经网络的步骤所需的步骤数量,每个批次尺寸加倍,并且存在减少的区域返回超出批判性批量大小。在本文中,我们通过使用优化器的随机第一阶Oracle(SFO)复杂性的全球最小化器来确定实际的临界批次大小。为了证明实际临界批次大小的存在,我们设置了SFO复杂性的下限和上限,并证明了最小化下限和上限的意义上存在临界批量尺寸。该证据意味着,如果SFO复杂性适合下限和上限,则这些临界批量尺寸的存在演示了实际临界批量大小的存在。我们还讨论了SFO复杂性以适应下限和上限的条件,并提供支持我们理论结果的数值结果。
translated by 谷歌翻译
Deep image prior (DIP) has recently attracted attention owing to its unsupervised positron emission tomography (PET) image reconstruction, which does not require any prior training dataset. In this paper, we present the first attempt to implement an end-to-end DIP-based fully 3D PET image reconstruction method that incorporates a forward-projection model into a loss function. To implement a practical fully 3D PET image reconstruction, which could not be performed due to a graphics processing unit memory limitation, we modify the DIP optimization to block-iteration and sequentially learn an ordered sequence of block sinograms. Furthermore, the relative difference penalty (RDP) term was added to the loss function to enhance the quantitative PET image accuracy. We evaluated our proposed method using Monte Carlo simulation with [$^{18}$F]FDG PET data of a human brain and a preclinical study on monkey brain [$^{18}$F]FDG PET data. The proposed method was compared with the maximum-likelihood expectation maximization (EM), maximum-a-posterior EM with RDP, and hybrid DIP-based PET reconstruction methods. The simulation results showed that the proposed method improved the PET image quality by reducing statistical noise and preserved a contrast of brain structures and inserted tumor compared with other algorithms. In the preclinical experiment, finer structures and better contrast recovery were obtained by the proposed method. This indicated that the proposed method can produce high-quality images without a prior training dataset. Thus, the proposed method is a key enabling technology for the straightforward and practical implementation of end-to-end DIP-based fully 3D PET image reconstruction.
translated by 谷歌翻译
Slimmable Neural Networks (S-Net) is a novel network which enabled to select one of the predefined proportions of channels (sub-network) dynamically depending on the current computational resource availability. The accuracy of each sub-network on S-Net, however, is inferior to that of individually trained networks of the same size due to its difficulty of simultaneous optimization on different sub-networks. In this paper, we propose Slimmable Pruned Neural Networks (SP-Net), which has sub-network structures learned by pruning instead of adopting structures with the same proportion of channels in each layer (width multiplier) like S-Net, and we also propose new pruning procedures: multi-base pruning instead of one-shot or iterative pruning to realize high accuracy and huge training time saving. We also introduced slimmable channel sorting (scs) to achieve calculation as fast as S-Net and zero padding match (zpm) pruning to prune residual structure in more efficient way. SP-Net can be combined with any kind of channel pruning methods and does not require any complicated processing or time-consuming architecture search like NAS models. Compared with each sub-network of the same FLOPs on S-Net, SP-Net improves accuracy by 1.2-1.5% for ResNet-50, 0.9-4.4% for VGGNet, 1.3-2.7% for MobileNetV1, 1.4-3.1% for MobileNetV2 on ImageNet. Furthermore, our methods outperform other SOTA pruning methods and are on par with various NAS models according to our experimental results on ImageNet. The code is available at https://github.com/hideakikuratsu/SP-Net.
translated by 谷歌翻译
自动基于图像的疾病严重程度估计通常使用离散(即量化)严重性标签。由于图像含糊不清,因此通常很难注释离散标签。一个更容易的替代方法是使用相对注释,该注释比较图像对之间的严重程度。通过使用带有相对注释的学习对框架,我们可以训练一个神经网络,该神经网络估计与严重程度相关的等级分数。但是,所有可能对的相对注释都是过敏的,因此,适当的样品对选择是强制性的。本文提出了深层贝叶斯的主动学习与级别,该级别训练贝叶斯卷积神经网络,同时自动选择合适的对进行相对注释。我们通过对溃疡性结肠炎的内窥镜图像进行实验证实了该方法的效率。此外,我们确认我们的方法即使在严重的类失衡中也很有用,因为它可以自动从次要类中选择样本。
translated by 谷歌翻译
建立可以与人类进行自然和知识互动的对话代理需要了解用户的话语。实体链接(EL)是一种有效且广泛使用的方法,用于理解自然语言文本并将其连接到外部知识。然而,这表明为注释文档开发的现有EL方法是对话的次优,在这种情况下,个人实体(例如,“我的汽车”)和概念对于理解用户话语至关重要。在本文中,我们介绍了一个集合和一个用于对话中链接的实体的工具。我们为1327个对话说法收集EL注释,这些话语由指定实体,概念和个人实体的链接组成。该数据集用于培训我们的工具包,以链接对话实体链接,CREL。与现有的EL方法不同,CREL的开发是为了识别指定的实体和概念。它还利用核心分辨率技术来识别个人实体和对对话中的显式实体提及的引用。我们将Crel与最先进的技术进行比较,并表明它的表现优于所有现有基线。
translated by 谷歌翻译
在这项研究中,我们开发了一种用于多任务歧管学习的方法。该方法旨在提高多项任务的歧管学习的性能,特别是当每个任务具有少量样本时。此外,除了用于现有任务的新样本之外,该方法还旨在为新任务生成新的样本。在所提出的方法中,我们使用两种不同类型的信息传输:实例传输和模型传输。例如,转移,数据集在类似的任务之间合并,而对于模型传输,歧管模型在类似的任务之间取平均值。为此目的,所提出的方法包括一组与任务相对应的一组生成歧管模型,其集成到光纤束的一般模型中。我们将所提出的方法应用于人工数据集和面部图像集,结果表明该方法能够估计歧管,即使对于微小的样品。
translated by 谷歌翻译
溃疡性结肠炎(UC)分类,是内窥镜诊断的重要任务,涉及两个主要困难。首先,具有关于UC(正或负)注释的内窥镜图像通常是有限的。其次,由于冒号中的位置,它们在外观上显示出大的变化。特别是,第二个困难阻止了我们使用现有的半监督学习技术,这是第一个难度的常见补救措施。在本文中,我们通过新利用两个附加特征,提出了一种用于UC分类的实际半监督学习方法,结肠中的位置(例如,左冒号)和图像捕获顺序,两者通常都附加到内窥镜中的各个图像图像序列。该方法可以通过与这些功能有效地提取UC分类的基本信息。实验结果表明,所提出的方法在分类任务中优于若干现有的半监督学习方法,即使具有少量注释的图像。
translated by 谷歌翻译
最近,随着医学的数字化,利用临床部位收集的现实医疗数据一直在吸引注意力。在本研究中,量子计算被应用于线性非高斯无循环模型,以发现单独从现实世界医疗数据的因果关系。具体而言,使用量子内核计算Directlingam,因果发现算法的独立测量,并验证了实际医疗数据的准确性。当使用量子内核(Qlindam)的DirectlingAm应用于现实世界的医疗数据时,确认了一个案例,其中当数据量很小时,可以正确估计因果结构,这是现有方法不可能。此外,Qlingam在使用IBMQ的实验中在实验中在实验中实现。建议Qlingam可能能够发现新的医学知识并为医学问题的解决方案提供贡献,即使只有少量数据都有。
translated by 谷歌翻译